ICLR 2024 | 持续近端策略优化算法：人类反馈的持续强化学习

Original 张晗 PaperWeekly

2024-08-23

©PaperWeekly 原创 · 作者 | 张晗

单位 | 哈尔滨工业大学（深圳），鹏城实验室

研究方向 | 大模型人类价值观对齐，持续学习

简介

人类反馈强化学习（RLHF）作为提升大语言模型（LLM）与人类偏好对齐的重要手段。现有 RLHF 方法在处理不断变化的人类偏好时，往往需要对 LLM 进行全参数重新训练，这在实际应用中面临着时间、计算成本及数据隐私等方面的巨大挑战。

依托哈尔滨工业大学（深圳）和鹏城实验室共同开展的研究，本论文提出一种持续近端策略优化（CPPO）算法，旨在解决这一难题，实现语言模型对动态人类偏好的持续对齐。

1.1 背景与挑战

研究表明，利用人类反馈对语言模型进行 RLHF 微调 [1]，能够显著提升模型在诸如文本摘要 [2]、翻译、对话生成等任务上的表现，使其生成结果更符合人类偏好。然而，现有方法在处理跨领域或主题变化导致的人类偏好差异时，要求对整个模型进行重新训练 [3]，这在现实场景中存在巨大挑战。

1.2 创新亮点

动态权重策略：作者提出的 CPPO 算法独创性地引入了自适应权重策略，根据样本特性自动区分用于增强策略学习与巩固过往经验的训练数据。这种策略旨在平衡策略学习与知识保留，确保模型在不断适应新偏好时，旧知识得以有效维护。

超越基准性能：实验结果显示，CPPO 在持续对齐人类偏好的任务上，明显优于传统的持续学习（CL）基线方法。此外，与经典近端策略优化 [4]（PPO）相比，CPPO 在非持续学习场景中展现出更高的效率与稳定性。

论文题目：

CPPO: Continual Learning for Reinforcement Learning With Human Feedback

论文地址：

https://openreview.net/pdf?id=86zAUE80pP

代码地址：

https://openi.pcl.ac.cn/Hanlard/CPPO

引言

通过从人类反馈中进行强化学习，可以增强语言模型，使其与人类偏好相一致。RLHF利用人类偏好作为奖励信号，使用 PPO 算法对语言模型进行微调。，对于缺乏标准化解决方案的任务，如摘要、翻译和对话，基于 RLHF 训练的模型能够有效地生成人类偏好的答案，而不会过度优化诸如 ROUGE 或 BLEU 等指标。

在实际应用中，学习不断变化的人类偏好比学习不变的人类偏好更常见。例如，从 COVID-19 病毒在人类社会中的爆发到广泛感染，最终到达群体免疫阶段的过程中，政府政策和人类观念发生了相应的变化。一个与时俱进的AI智能体应该展现出与当前政府政策和不同阶段的人类理解偏好相一致的行为，而不是一成不变。

传统的对齐方法在持续学习人类偏好方面缺乏灵活性。Anthropic 公司通过定期重新训练偏好模型（PM）和 LLM，同时利用新旧数据来学习动态人类偏好，但由于涉及计算成本和数据隐私等问题，其效率低下且不切实际。

在本文中，我们提出了一种更为高效的方法，通过将 RLHF 与持续学习相结合，优化两个相互冲突的目标：保留旧知识和获取新知识。这是一个长期存在的挑战，即稳定性-可塑性平衡的困境。此外，由于语言模型巨大的行动空间（词表），RLHF 算法（如PPO）通常在训练过程中面临效率和稳定性问题。

为应对这一困境，我们提出了 CPPO 算法。其核心在于设计了一种自适应权重策略，对训练样本进行精细化管理。具体而言，CPPO 将样本划分为不同类型（如高表现样本、高方差样本、噪声样本、正常样本等），并赋予不同的策略学习权重和知识保留权重。

对于有助于提升模型性能的样本，CPPO 赋予高和高，鼓励模型学习并记住这些信息；对于可能引入过拟合风险的样本，则降低以抑制其对模型的负面影响；对于噪声样本，CPPO 则赋予较低的以减少其对学习的干扰；而对于普通样本，则不做权重调整。这样的设计使得 CPPO 能够在学习新偏好时，兼顾旧知识的保护，有效解决了持续学习中“学新忘旧”的难题。

论文详解

我们尝试通过设计一种基于样本的加权策略来寻求策略学习和知识保留之间的良好平衡，和更加稳定的学习。首先，我们基于最大化当前奖励和最小化历史遗忘的目标，提出一个理论目标函数。

3.1 持续强化目标

该目标函数通过最大化学习策略在新任务的平均奖励和最小化新旧策略在旧任务上的分布差异得到：

进一步地，我们根据其奖励和生成概率将样本划分为 5 种类型，为每个样本分配策略学习权重和知识保留权重，将上一步优化目标简化为如下形式：

3.2 权重策略

我们的权重策略是受到以下事实的启发，即理想的策略应始终以高概率生成高奖励答案。

样本划分如表-1 所示。我们按照以下方式为每个样本分配策略学习权重和知识保留权重：

1）对于高性能样本，我们分配高和高，以巩固该样本的知识。

2）对于高方差或过拟合样本，我们分配高和低，以便学习更多关于该样本的知识，并强制新策略在生成这样的样本时与旧策略有所不同。

3）对于噪声样本，我们分配低和低以减少其对学习的影响。

4）对于正常样本，我们不做任何改变。

3.3 CPPO方法

CPPO 以两种不同的方式实现加权策略：启发式和可学习方法，从而产生两种不同的 CPPO 方法（详情见第 3.2 节）。启发式方法根据策略设定权重，使用线性增益或衰减策略，其权重曲面如图-2 所示。

可学习方法将策略转换为多个不等式约束，并通过优化拉格朗日函数来学习最佳权重。

对真实摘要数据集的实验结果表明，我们提出的 CPPO 方法在持续学习和非持续学习设置中均显著优于 PPO 重新训练方法和强 CL 基线。

此外，稳定性分析实验验证了 CPPO 相对于原始 PPO 算法的训练稳定性的显著提升（图-4）。

3.4 实验验证

实验中，我们将 CPPO 与一系列 CL 基准方法以及 PPO 进行了对比。如表-6 所示，CPPO 在保持与人类偏好一致性的任务上表现出色，无论是在面对全新领域还是已有领域的偏好变化，都能持续高效地调整模型策略，优于所有基线方法。此外，在非持续学习场景中（见附录 F），CPPO 不仅学习效率更高，而且模型稳定性更强，证明了其在处理复杂、动态人类偏好问题上的优越性。

结论

CPPO 为语言模型在人类反馈强化学习中的持续学习提供了一种有效的解决方案。通过动态权重策略的运用，CPPO 成功实现了模型在面对不断变化的人类偏好时，既能迅速适应新偏好，又能有效保持对旧知识的记忆，从而在多个下游任务中展现出强泛化能力和高适应性。与此同时，研究者还构建了两个持续 RLHF 领域的测试基准，为未来的持续 RLHF 研究打下了基础。

参考文献

[1] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

[2] Stiennon N, Ouyang L, Wu J, et al. Learning to summarize with human feedback[J]. Advances in Neural Information Processing Systems, 2020, 33: 3008-3021.

[3] Bai Y, Jones A, Ndousse K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[J]. arXiv preprint arXiv:2204.05862, 2022.

[4] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

ICLR 2024 | 持续近端策略优化算法：人类反馈的持续强化学习

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

生成图片，分享到微信朋友圈

ICLR 2024 | 持续近端策略优化算法：人类反馈的持续强化学习

您可能也对以下帖子感兴趣